最近正在搭建一个斯瓦希里语推特语料库,简称 tweka,在斯瓦希里语(以下简称斯语)中这个词的意思是“举起,推起”。这篇日志记录一些在搭建这个语料库时遇到的一些困难。 另外,搭建这个语料库使用的脚本是基于波茨坦大学的 Tatjana Scheffler 维护的项目。在那个项目中,她为德语语言学学者写了一个抓取推特信息的脚本。 langid 无法使用 Scheffler 的Twitter-for-Linguists脚本中使用 langid 将特定从其他语种中过滤出来,langid 在说明文件中声称可以识别 97 门不同的语言,并且包含了斯瓦希里语。我之前下载了 langid 的独立脚本程序,测试了一下,发现其实 langid 对斯瓦希里语的识别能力很低。有可能是因为斯瓦希里语作为一门黏着语,一个单词中可以包含很多的语素,使得一个句子所包含的单词并不那么多,导致 langid 的识别效果较差。 改脚本改成让它使用 langid 斯语识别,试着抓取了一些记录,发现其中确实也有一些斯语的条目,但是所占数量很少。 其他那些看上去很奇怪的语言,对于 langid 来说就是“斯语”。 真实的斯语推特文本的样子 所以只能选择放弃使用 langid 来进行语言识别(我不知道他们是如何训练斯瓦希里语的参数文件的),而从 Twitter 上真的是斯瓦希里语的那些账号的文本信息入手,看看这些文本在单词上有什么特征。找了正好也关注我推特的 Vodacom Tanzania。发现他们自己的推特信息就一部分是英文一部分是斯语的。
Copy and paste this URL into your WordPress site to embed
Copy and paste this code into your site to embed